第 17 章 利用文本挖掘技术分析文献摘要

本章基于R语言文本挖掘技术,分析文献摘要。具体做法是,利用R语言tidyverse、tidytext、widyr、tidygraph、ggraph等宏包分析我校文献(Web of Science)摘要的文本信息6

17.1 数据导入

为了研究的可重复性,我列出了数据获取步骤: - 打开https://www.webofknowledge.com/,进入核心合集 - 输入学校全名:比如 Sichuan Normal University - 选择“机构扩展”检索 - 选择时间范围:“2009-2018年” - 选择“SCI/SSCI/A&HCI” - 点击检索 - 文档类型精炼:”Article + Review “ - 一次显示最多 50 条,一次下载最多 500 条 - 选择“其他类型下载” + “全记录与引用的参考文献” + “win UTF” - 依此下载保存

我们共获取了 1988 条文献题录数据。

17.2 数据规整

数据整理和文本分词

过滤无用词汇

17.3 计算tf_idf

17.4 文本相似性

\[ \text{similarity} = \cos ( \theta ) = \frac { \mathbf { A } \cdot \mathbf { B } } { \| \mathbf { A } \| \| \mathbf { B } \| } = \frac { \sum _ { i = 1 } ^ { n } A _ { i } B _ { i } } { \sqrt { \sum _ { i = 1 } ^ { n } A _ { i } ^ { 2 } } \sqrt { \sum _ { i = 1 } ^ { n } B _ { i } ^ { 2 } } } \]

17.5 关联词汇

前面我们计算了过滤词汇text_filted,我们现在研究这些词汇之间的关联

## # A tbl_graph: 124 nodes and 94 edges
## #
## # A directed multigraph with 46 components
## #
## # Node Data: 124 x 1 (active)
##   name         
##   <chr>        
## 1 piezoelectric
## 2 rights       
## 3 lead         
## 4 elsevier     
## 5 sintering    
## 6 phase        
## # ... with 118 more rows
## #
## # Edge Data: 94 x 4
##    from    to     n category
##   <int> <int> <int> <chr>   
## 1     1    74    65 材料科学
## 2     2    75    58 材料科学
## 3     3    52    45 材料科学
## # ... with 91 more rows

17.6 下一步工作

  • 数据量很多,需要精炼,从而提前有用的关键信息
  • 还没想好